智能论文笔记

Multimodal End-to-End Group Emotion Recognition using Cross-Modal Attention

Lev Evtodienko

分类：计算机视觉

2021-11-10

分类组级情绪是由于视频的复杂性，其中不仅是视觉的，而且应该考虑音频信息。对多模式情感识别的现有工作是使用庞大的方法，其中使用掠夺性神经网络作为特征提取器，然后提取的特征被融合。然而，这种方法不考虑多模式数据的属性，并且特征提取器不能用于对整体模型精度不利的特定任务的微调。为此，我们的影响是双重的：（i）我们训练模型端到端，这允许早期的神经网络层考虑到后来的两种方式的融合层; （ii）我们模型的所有层都针对情感认可的下游任务进行了微调，因此无需从头划伤训练神经网络。我们的模型实现了最佳验证精度为60.37％，比VGAF数据集基线更高，比VGAF数据集基线更高，并且与现有工程，音频和视频模式具有竞争力。

translated by 谷歌翻译

LSDNet: Trainable Modification of LSD Algorithm for Real-Time Line Segment Detection

Lev Teplyakov , Leonid Erlygin , Evgeny Shvets

分类：计算机视觉

2022-09-10

截至今天，基于卷积神经网络-CNN的算法实现了线段检测（LSD）的最佳准确性（LSD）。不幸的是，这些方法利用了深度，重型网络，并且比传统的基于模型的检测器慢。在本文中，我们通过将轻量级CNN纳入经典的LSD检测器中，建立了准确但快速的基于CNN的检测器LSDNET。具体而言，我们用轻量级的CNN替换了原始LSD算法的第一步 - 线段段热图和切线场的构造 - 能够计算出更复杂和丰富的特征。 LSD算法的第二部分仅用于次要修改。与标准线框数据集上的几个现代线段探测器相比，所提出的LSDNET可提供214 fps的最高速度（在基于CNN的探测器中），竞争精度为78 FH。尽管最佳报告的精度为33 fps的83 fh，但我们推测观察到的精度差距是由注释错误引起的，实际差距明显较低。我们指出了流行线检测基准的注释中的系统不一致 - 线框和约克城市，仔细地重新注册了一部分图像，并表明（i）现有检测器在不进行重新训练的情况下改善了质量，而无需重新培训，表明新的注释与新的注释相关，使得新的注释更好地与之相关。正确的线段检测概念；（ii）我们检测器的精度与其他人之间的差距减少到可忽略的0.2 FH，而我们的方法最快。

translated by 谷歌翻译

Heterogeneous Treatment Effect with Trained Kernels of the Nadaraya-Watson Regression

Andrei V. Konstantinov , Stanislav R. Kirpichenko , Lev V. Utkin

分类：机器学习 | (统计)机器学习

2022-07-19

本文提出了一种估计条件平均治疗效果的新方法。它称为TNW-CATE（可训练的Nadaraya-Watson回归CATE），并且基于以下假设：控制数量相当大，而处理的数量很少。 TNW-CATE使用Nadaraya-Watson回归来预测对照组和治疗组的患者的结果。 TNW-CATE背后的主要思想是通过使用特定形式的重量分享神经网络来训练Nadaraya-Watson回归的内核。该网络在控件上进行了训练，并用一组具有共享参数的神经子网代替标准内核，使每个子网都实现了可训练的内核，但是整个网络都实现了Nadaraya-Watson估计器。网络记住特征向量如何位于特征空间中。当源和目标数据的域相似时，所提出的方法类似于传输学习，但任务不同。各种数值仿真实验说明了TNW-CATE，并将其与众所周知的T-Learner，S-Learner和X-Learner进行比较，以进行几种类型的对照和治疗结果函数。 https://github.com/stasychbr/tnw-cate提供了实施TNW-CATE的算法的代码。

translated by 谷歌翻译

AGBoost: Attention-based Modification of Gradient Boosting Machine

Andrei Konstantinov , Lev Utkin , Stanislav Kirpichenko

分类：机器学习 | (统计)机器学习

2022-07-12

提出了一个新的基于注意力的升压机（GBM）的模型，称为AgBoost（基于注意力的梯度提升），以解决回归问题。拟议的AGBOOST模型背后的主要思想是将带有可训练参数的注意力分配给GBM的迭代，条件是决策树是GBM中的基础学习者。注意力的重量是通过应用决策树的特性和使用Huber的污染模型来确定的，该模型在注意力的参数和注意力重量之间提供了有趣的线性依赖性。这种特殊性使我们能够通过线性约束解决标准二次优化问题来训练注意力权重。注意力重量还取决于折现因子作为调整参数，这决定了重量的影响随迭代次数减少的程度。对两种类型的基础学习者，原始决策树和具有各种回归数据集的极为随机树进行的数值实验说明了所提出的模型。

translated by 谷歌翻译

Attention and Self-Attention in Random Forests

Lev V. Utkin , Andrei V. Konstantinov

分类：机器学习 | (统计)机器学习

2022-07-09

提出了使用注意力和自我发项机制共同解决回归问题的新模型。这些模型可以被视为基于注意力的随机森林的扩展，其思想源于将Nadaraya-Watson内核回归和Huber污染模型的组合应用于随机森林。自我发作旨在捕获树木预测的依赖性，并消除随机森林中的噪声或异常预测。自我发场模块与注意力重量的注意模块共同训练。结果表明，注意力重量的训练过程减少到解决单个二次或线性优化问题。提出并比较了一般方法的三个修改。还考虑了对随机森林的特定多头自我注意。自我注意事项的头部是通过更改其调谐参数（包括内核参数和模型的污染参数）来获得的。使用各种数据集的数值实验说明了所提出的模型，并表明自我发挥的补充可改善许多数据集的模型性能。

translated by 谷歌翻译

Attention-based Random Forest and Contamination Model

Lev V. Utkin , Andrei V. Konstantinov

分类：机器学习 | 人工智能 | (统计)机器学习

2022-01-08

提出了一种称为ABRF（基于关注的随机林）的新方法及其用于将注意机制应用于回归和分类的随机林（RF）的修改。拟议的ABRF模型背后的主要观点是以特定方式将注意力与可培训参数分配给决策树。权重取决于实例之间的距离，其落入树的相应叶子，以及落入同一叶子的情况。这种想法源于Nadaraya-Watson内核回归以RF的形式表示。提出了三种改进的一般方法。第一个基于应用Huber的污染模型，并通过解决二次或线性优化问题来计算注意力。第二个和第三种修改使用基于梯度的算法来计算可训练参数。各种回归和分类数据集的数值实验说明了所提出的方法。

translated by 谷歌翻译

Resource-Efficient Deep Learning: A Survey on Model-, Arithmetic-, and Implementation-Level Techniques

JunKyu Lee , Lev Mukhanov , Amir Sabbagh Molahosseini , Umar Minhas , Yang Hua , Jesus Martinez del Rincon , Kiril Dichev , Cheol-Ho Hong , Hans Vandierendonck

分类：机器学习

2021-12-30

我们日常生活中的深度学习是普遍存在的，包括自驾车，虚拟助理，社交网络服务，医疗服务，面部识别等，但是深度神经网络在训练和推理期间需要大量计算资源。该机器学习界主要集中在模型级优化（如深度学习模型的架构压缩），而系统社区则专注于实施级别优化。在其间，在算术界中提出了各种算术级优化技术。本文在模型，算术和实施级技术方面提供了关于资源有效的深度学习技术的调查，并确定了三种不同级别技术的资源有效的深度学习技术的研究差距。我们的调查基于我们的资源效率度量定义，阐明了较低级别技术的影响，并探讨了资源有效的深度学习研究的未来趋势。

translated by 谷歌翻译

Active Learning of Quantum System Hamiltonians yields Query Advantage

Arkopal Dutt , Edwin Pednault , Chai Wah Wu , Sarah Sheldon , John Smolin , Lev Bishop , Isaac L. Chuang

分类：机器学习

2021-12-29

Hamiltonian学习是量子系统识别，校准和量子计算机成功运行的重要程序。通过对量子系统的查询，该过程寻求获得给定Hamiltonian模型的参数和噪声源的描述。汉密尔顿学习的标准技术需要仔细设计查询和$ O（\ epsilon ^ {-2}）$查询，以获得由于标准量子限制而实现学习错误$ \ epsilon $。通过实现学习错误$ \ epsilon $ \ opsilon $的有效和准确地估计Hamiltonian参数，我们介绍了一个活跃的学习者，它给出了一个初始的训练示例和交互式查询量子系统以产生新的培训数据的能力。我们正式指定和实验地评估该汉密尔顿主动学习（HAL）算法的性能，用于学习四个不同超导IBM量子器件上的双态交叉谐振Hamiltonian的六个参数。与同一问题的标准技术和指定的学习错误相比，HAL可以在相当的非自适应学习算法上实现高达99.8 \％$ 99.1 \％$ 49.1％。此外，通过访问汉密尔顿参数的子集的先前信息，并提供了在学习期间用线性（或指数）的较长系统交互时间选择查询的能力，Hal可以超过标准量子限制，实现Heisenberg（或超级Heisenberg）有限公司学习期间的收敛速度。

translated by 谷歌翻译

TAFIM: Targeted Adversarial Attacks against Facial Image Manipulations

Shivangi Aneja , Lev Markhasin , Matthias Niessner

分类：计算机视觉

2021-12-16

脸部图像操纵方法，尽管计算机图形中具有许多有益的应用，但也可以通过影响个人的隐私或传播令人讨厌来提高担忧。在这项工作中，我们提出了一个主动的防御，以防止脸部操纵在第一处发生。为此，我们介绍了一种新的数据驱动方法，它产生嵌入在原始图像中的图像特定的扰动。关键的想法是，这些受保护的图像通过使操纵模型产生预定义的操纵目标（在我们的情况下均匀彩色的输出图像）而不是实际操作来防止面部操纵。与传统的逆势攻击相比，为单独优化每个图像的噪声模式，我们的广义模型只需要一个前向通过，从而运行幅度的序列更快并允许在图像处理堆栈中轻松集成，即使在智能手机等资源受限的设备上也可以轻松集成。此外，我们建议利用可分解的压缩近似，因此使产生的扰动鲁棒到常见的图像压缩。我们进一步表明，产生的扰动可以同时防止多种操纵方法。

translated by 谷歌翻译

Multi-Attention Multiple Instance Learning

Andrei V. Konstantinov , Lev V. Utkin

分类：机器学习

2021-12-11

提出了一种新的基于多关注的MIL问题（MIMIL）的方法，其考虑了袋子中的每个分析的贴片的邻近补丁或情况。在该方法中，关注模块之一考虑了相邻的补丁或实例，使用了几个注意力模块来获取各种特征表示的补丁，并且一个注意模块用于组合不同的特征表示，以提供每个补丁的准确分类（实例）和整袋。由于妈妈，实现了以小规模的嵌入形式的斑块和邻居的组合表示，用于简单分类。此外，实现了不同类型的贴片，并有效地处理了通过使用几种注意力模块的袋中贴片的不同特征表示。提出了一种简单的解释贴片分类预测的方法。各种数据集的数值实验说明了所提出的方法。

translated by 谷歌翻译